"""
RDD成员方法reduceBykey() 对数据进行分组并计算
    处理一个数据函数，对数据进行两两计算
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)

# 数据必须是二元元组 才能使用reduceByKey()
rdd = sc.parallelize([('男', 90), ('女', 100), ('男', 100), ('女', 80)])
rdd1 = rdd.reduceByKey(lambda x, y: x - y)
# 获取数据

print(rdd1.collect())

# 关闭spark
sc.stop()
